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中 文 情 感 倾向 性 分 析 的 相关 研究 进展 


吴琼 谭 松 波 程 学 旗 
摘 要 如 何 对 大 规模 富 含 情感 信息 的 文本 进行 倾向 性 分 析 是 当前 web 应 用 一 个 蝇 待 解决 的 问题 。 本 文 
在 分 析 目 前 国内 外 情感 倾向 性 分 析 研 究 现状 的 基础 上 ， 介 绍 了 我 们 为 进行 中 文 情 感 借 向 性 分 析 所 构建 的 语 
料 集 及 开发 的 实验 平台 ， 然 后 重点 介绍 我 们 的 工作 ， 包 括 整 篇 文本 的 倾向 性 分 析 、 领 域 情感 词典 构建 、 跨 
领域 情感 倾向 性 分 析 等 方面 的 关键 技术 ， 从 而 通过 不 同 角度 提高 文本 倾向 性 分 析 精 度 。 最 后 总 结 了 我 们 已 
有 的 工作 ， 并 展望 下 一 步 我 们 将 深入 开展 的 研究 工作 。 
关键 词 : ”倾向 性 分 析 ; 监督 学 习 ， 情感 词典 ， 器 领域 


图 


近年 来 ， 随 着 互联 网 在 现代 社会 影响 迅速 扩大 ， 论 坛 、 博 客 等 网 络 交 流 平台 不 断 涌现 ， 
人 们 越 来 越 习 惯 于 在 网 上 发 表 主 观 性 的 言论 。 这 些 言论 用 于 表达 自己 对 于 日 常事 件 、 产 品 、 
政策 等 的 观点 和 看 法 , 形成 了 网 上 大 量 带 有 情感 倾向 性 的 文本 .不同 于 传统 的 结构 化 的 数据 ， 
这 些 文本 的 表现 形式 大 多 为 非 结 构 化 或 半 结 构 化 的 评论 文本 形式 。 面 对 如 此 海量 的 富 含情 感 
信息 的 文本 ， 如 果 仅 仅 依 靠 人 工 进行 整理 ， 就 会 面临 处 理 周期 长 、 费 用 高 等 问题 ， 显 然 是 不 
切实 际 的 。 因 此， 如 何 由 计算 机 自动 完成 快速 从 大 规模 文本 中 提取 出 所 需 情感 信息 ， 进 行 态 
度 分 析 便 成 为 当前 一 项 重要 的 研究 课题 。 文 本 情感 倾向 性 分 析 研 究 就 是 在 这 样 的 背景 下 开展 
起 来 的 。 


情感 倾向 性 是 一 个 相当 广泛 的 概念 ,涉及 人 们 的 观点 、 看 法 和 评价 ,包括 人 类 行为 相对 
于 社会 标准 的 评价 ， 产 品 相对 于 国家 和 行业 强制 标准 、 用 户 偏 好 、 审 美观 的 评价 等 。 文 本 的 
情感 倾向 包括 文本 所 反映 的 情感 的 方向 〈 褒 或 贬 ) 及 其 强度 。 文 本 情感 倾向 性 分 析 的 目的 是 
通过 挖掘 和 分 析 文 本 中 的 立场 、 观 点 、 看 法 、 情 绪 、 好 恶 等 主观 信息 ， 对 整 篇 文本 所 体现 出 
的 态度 (或 称 情感 倾向 性 )， 即 文本 中 的 主观 信息 进行 判断 。 文 本 情感 通常 分 为 两 类 (正面 、 
反面 或 三 类 ( 正面 、 反 面 和 中 立 )。 其 中 正面 类 别 (positive) 是 指 主题 中 持 有 积极 的 (支持 的 、 
健康 的 ) 态 度 和 立场 ; 负面 类 别 Cnegative) 是 指 文 本 中 持 有 消极 的 (反对 的 、 不 健康 的 ) 态 度 和 立 
场 ， 中 立 类 别 (neutral) 是 指 文本 中 持 中 立 态度 和 立场 。 从 当前 的 研究 来 看 ， 以 考虑 两 类 的 而 
究 居 多 。 


文本 倾向 性 分 析 与 传统 的 文本 分 类 不 同 。 传 统 的 文本 分 类 基于 文本 主题 (例如; 文化 、 
体育 、 经 济 等 ) 进行 分 类 ， 对 文本 内 容 的 分 析 与 理解 都 处 于 比较 浅 的 层次 。 而 文本 倾向 性 分 
析 关 注 的 是 非 主题 分 析 ， 即 文本 内 容 所 体现 的 情感 、 态 度 ， 而 非 文本 本 身 的 内 容 。 它 是 对 传 
统 的 文本 分 类 研究 的 深入 和 拓展 ， 可 以 满足 人 们 更 深层 次 获取 和 利用 信息 的 要 求 2 。 


网 上 文本 的 形式 及 内 容 的 随意 性 使 文本 情感 倾向 性 分 析 基 有 很 高 难度 ， 涉 及 到 人 工 智 
能 、 机 器 学 习 、 信 息 抽 取 、 信 息 检 索 、 数 据 挖 据 、 自 然 语 言 处 理 、 计 算 语言 学 、 语 料 库 语 言 
学 、 本 体 学 (ontology)、 统 计 学 等 多 个 研究 领域 ， 不 仅 需 要 应 用 上 述 领域 前 治 技术 ， 而 且 反 
过 来 又 对 这 些 领 域 提出 了 新 的 挑战 ， 推 动 了 其 发 展 。 因 此 ， 在 科学 研究 方面 具有 重要 意义 。 
同时 ， 文 本 倾向 性 分 析 可 广泛 应 用 于 社会 与 情 分 析 、 产 品 在 线 跟踪 与 质量 评价 、 影 视 评价 、 
博客 声誉 评价 、 新 闻 报道 评述 、 事 件 分 析 、 股 票 评 论 、 图 书 推荐 、 企 业 情 报 系统 、 客 户 关系 
管理 (CRM) 等 方面 ， 在 社会 经 济 和 人 民生 活 方面 也 具有 重要 意义 由， 如 ; 
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国 社会 屠 情 分 析 : 熏 情 是 指 在 一 定 社会 空间 内 ， 围 绕 社会 事件 的 发 生 、 发 展 和 变化 ， 
民众 对 事件 和 当 事 各 方 的 社会 政治 态度 , 是 人 们 对 于 社会 中 各 种 现象 、 问 题 所 表现 
的 信念 、 态 度 、 意 见 和 情绪 等 总 和 。 网 络 因 其 开放 性 和 虚拟 性 ， 已 经 成 为 民意 表达 
的 重要 通道 和 空间 。 利 用 文本 倾向 性 分 析 技 术 ， 可 以 更 加 及 时 地 了 解 网 络 民意 ,使 
民间 智 菩 与 官方 智 苇 更 加 良好 地 互动 。 


图。 博客 声誉 评价 及 垃圾 博客 过 滤 : 及 时 的 交互 性 是 博客 的 特色 之 一 。 大 量 网 民利 用 博 

客 发 表 自 己 对 事物 的 观点 并 对 他 人 的 观点 进行 评论 , 博客 浏览 者 也 大 多 根据 评论 信 
县 来 判断 博客 作者 的 声誉 ， 与 浏览 者 的 互动 是 很 多 博客 作者 继续 写 博 客 的 动力 。 利 
用 文本 倾向 性 分 析 技 术 可 以 挖掘 浏览 者 对 博客 作者 的 讲 贬 观点 , 从 而 得 到 博客 作者 
I 誉 度 。 此 外 ,可 以 通过 倾向 性 分 析 技 术 对 以 广告 等 垃圾 信息 为 主 的 博客 进行 过 


国产 品评 价 与 推荐 : 目前 ， 多 数 产 品 生 产 、 销 售 广 商 希望 通过 跟踪 用 户 对 产品 的 回馈 
意见 来 获得 改进 产品 质量 的 针对 性 意见 ; 潜在 的 消费 者 也 希望 通过 网 上 真实 的 评价 
信息 来 调整 个 人 的 购买 意向 。 然 而 ， 随 着 评论 数量 的 快速 增长 ， 商 家 和 潜在 消费 者 


~ 都 希望 能 有 一 种 方法 来 帮助 他 们 自动 对 这 些 产 品评 论 进行 处 理 。 利 用 文本 倾向 性 分 
09 析 技 术 对 产品 评论 观点 进行 组 织 和 分 类 , 有 利于 人 们 了 解 产品 ,培育 潜在 消费 群体 。 
二 国 影视 评价 ;影视 评价 是 影视 艺术 与 观众 的 桥 粱 ， 是 实现 影视 作品 三 重 价值 (艺术 、 
个 社会 、 经 济 ) 的 重要 手段 。 影 视 评论 主要 是 对 影视 作品 的 主题 、 拍 摄 、 情 节 、 人 物 
cp 形象 、 人物 语言 风格 、 表 演技 巧 、 画 面 等 方面 进行 分 析 ， 同 时 ， 就 影视 作品 的 音乐 
设计 、 画 面 特点 、 人 物 服装 及 化 妆 造 型 、 人 物 与 环境 的 搭配 、 色 彩 使 用 等 方面 发 表 


见解 进行 评价 。 文本 情感 倾向 性 分 析 技 术 可 以 实现 影视 评论 的 自动 分 类 , 有 利于 用 
户 快速 浏览 正 反 两 方面 的 评论 意见 ， 减 少 观看 影视 时 的 盲目 性 。 
综 上 所 述 ， 文 本 倾向 性 分 析 研 究 不 但 共有 深远 的 理论 价值 ， 而 且 有 着 广阔 的 应 用 前 景 ， 
可 以 创造 巨大 的 社会 和 经 济 效益 。 


本 文 针对 现 有 的 文本 倾向 性 分 析 方 法 所 存在 的 问题 , 在 分 析 目 前 国内 外 倾向 性 分 析 研 究 
一 现状 的 基础 上 ， 介 绍 了 我 们 所 构建 的 语 料 集 及 开发 的 实验 平台 ， 然 后 重点 介绍 我 们 的 工作 ， 


二 包括 整 篇 文本 的 倾向 性 分 析 、 领 域 情感 词典 构建 、 跨 领域 情感 倾向 性 分 析 等 方面 的 关键 技术 ， 
© 从 而 通过 不 同 角度 提高 文本 倾向 性 分 析 精 度 。 最 后 总 结 已 有 的 工作 ,并 展望 下 一 步 将 深入 开 


展 的 研究 工作 。 


本 文 第 2 节 将 概述 国内 外 研究 现状 ， 第 3 节 介 绍 我 们 的 语 料 集 及 实验 平台 ; 随后 分 3 
节 详 细 介 绍 我 们 在 情感 倾向 性 分 析 方 面 的 研究 工作 : 0 习 的 情感 倾向 性 分 析 研 究 、 
领域 情感 词典 构建 以 及 跨 领域 情感 倾向 性 分 析 ; 最 后 在 第 7 节 总 结 我 们 的 工作 并 展望 下 一 步 
的 研究 。 


2 国内 外 研究 现状 


文本 倾向 性 分 析 研 究 的 历史 不 长 ， 最 早 可 以 追溯 到 20 世纪 90 年 代 ， 并 且 在 2000 年 之 
后 获得 了 突飞猛进 的 飞速 发 展 。 目 前 ， 文 本 倾向 性 分 析 研 究 已 成 为 国内 外 研究 的 热点 问题 。 
近年 来 ， 有 关 自 然 语 言 处 理 、 人 工 智 能 、 信 息 检 索 、 数 据 挖 掘 以 及 Web 应 用 等 领域 的 多 个 
国际 顶级 会 议 (AAAI、ACL、CIKM、COLING、SIGIR、WWW 和 KDD 等 ) 涌 现 出 大 量 文本 
情感 倾向 分 析 的 相关 论文 。 同 时 也 出 现 了 针对 文本 倾向 性 分 析 的 相关 评测 ， 例 如 ， 从 1992 
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年 起 ， 美 国 国家 标准 技术 研究 院 CNIST) 和 美国 国防 高 级 研究 计划 署 DARPA ) 组 织 了 文 
本 检索 会 议 (TREC)， 该 会 议 已 经 成 为 国际 上 文本 检索 领域 最 车 名 的 评测 会 议 ，2006 年 起 ， 
TREC 增加 了 博客 观点 (Blog Opinion) 检索 任务 ， 在 全 球 范围 内 开展 博客 倾向 性 观点 的 检 
索 和 分 析 研 究 。 在 政府 方面 ,美国 的 熏 情 研究 协会 、 欧 盟 与 情 分 析 官 方 网 站 、 新 西 兰 坎 特 伯 
雷 大 学 (The University of Canterbury) 欧洲 恤 情 分 析 研 究 中 心 等 都 开展 了 基于 调查 问卷 、 网 
页 统计 、 文 本 分 析 等 方式 的 与 情 倾向 性 分 析 项 目 。 


下 面 , 我 们 首先 分 别 对 文本 情感 倾向 性 分 析 的 国内 外 相关 研究 分 类 进行 综述 , 在 此 基础 
上 归纳 主要 应 用 的 分 类 技术 。 
2.1 代表 性 工作 


文本 情感 倾向 性 分 析 根 据 其 所 处 理 的 情感 数据 粒度 不 同 分 为 : 属性 级 的 倾向 性 分 析 、 词 
语 级 的 倾向 性 分 析 、 文 档 级 的 倾向 性 分 析 以 及 对 于 多 文档 的 倾向 性 摘要 等 7。 
(1) 属性 级 的 倾向 性 分 析 

属性 级 的 倾向 性 分 析 针 对 细 粒 度 的 文本 挖掘 ,主要 包括 两 方面 的 研究 内 容 : 评论 语气 词 
识别 、 评 论 对 象 的 识别 以 及 其 与 评论 语气 词 的 关联 9。 
(2) 词语 级 的 倾向 性 分 析 

词语 语义 倾向 计算 是 文本 倾向 性 分 析 研 究 中 的 一 个 基础 且 重 要 的 子 研究 领域 , 其 目标 是 
提供 文本 倾向 性 的 量化 表达 。 即 用 (-1,1) 之 间 的 实数 代表 词语 的 语义 倾向 ， 其 正 、 负 分 别 代 
表 语 气 的 寰 、 贬 ,绝对 值 代表 词语 的 极 性 强度 ， 这 为 文本 倾向 性 分 析 的 多 个 研究 方向 提供 了 
重要 基础 中 。 目前， 词语 语义 倾向 性 分 析 除 了 利用 预先 标注 的 语义 倾向 基准 词 外 ， 还 需要 利 
用 词语 间 的 相似 度 [60。 
(3) 文档 级 的 倾向 性 分 析 

文档 级 的 倾向 性 分 析 可 以 看 作 是 一 种 特殊 的 分 类 ， 即 根据 文章 中 对 某 一 主题 的 观点 ( 支 
持 或 反对 、 高 兴 或 悲伤 等 等 ) 对 文本 进行 分 类 ， 因 此 可 将 机 器 学 习 算 法 用 于 这 种 分 析 吕 2 。 
一 (4) 多 文档 的 倾向 性 摘要 
De 目前 网 上 包含 主观 信息 的 文本 中 , 在 线 的 产品 评论 , 尤其 是 针对 某 些 名 牌 产品 的 文本 数 

量 增长 极 快 。 多 数 产品 评论 篇 幅 较 长 , 但 包含 产品 属性 的 句子 却 极 少 。 对 于 潜在 消费 者 来 说 ， 

难于 在 如 此 海量 的 信息 中 找到 真正 有 价值 的 评论 。 而 对 于 产品 生产 、 销 售 商 来 说 ， 在 如 此 众 
多 的 评论 信息 中 跟踪 消费 者 对 于 自家 产品 的 评价 也 是 一 件 相当 困难 的 事情 。 

因此 ， 产 品评 论 控 据 系统 通常 也 要 利用 意见 摘要 技术 , 通过 归纳 评论 的 语气 极 性 、 程 度 
和 相关 事件 对 在 线 产品 评论 进行 摘要 。 利 用 该 技术 ,潜在 用 户 可 以 方便 地 了 解 目 前 消费 者 对 
于 产品 的 评价 ; 产品 生产 、 销 售 商 也 可 以 较 轻 松 地 跟踪 消费 者 对 于 产品 的 评价 ， 比 较 同 类 各 
品牌 产品 的 优 劣 1。 
2.2 主要 的 分 类 方法 

目前 常用 的 文本 情感 倾向 性 分 析 技 术 主 要 有 : 统计 机 器 学 习 方 法 、 基 于 相似 度 的 方法 、 
基于 图 模型 的 方法 。 
2.2.1 统计 机 器 学 习 方 法 
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当前 ， 基 于 统计 机 器 学 习 理 论 的 文本 情感 倾向 性 分 析 是 文本 挖掘 领域 的 一 个 研究 热点 。 
其 中 常用 的 基于 机 器 学 习 的 文本 分 类 算法 包括 ml; 


- 中 心 向 量 分 类 方法 : 这 是 一 种 简单 有 效 的 分 类 法 ， 所 有 文档 都 用 特征 问 量 来 表 
示 。 在 此 基础 上 ， 对 于 所 有 属于 同一 类 别 的 文档 计算 出 一 个 平均 向 量 〈 即 中 心 
向 量 )。 给 一 个 样本 向 量 分 类 时 ， 只 需 计算 它 与 各 中 心 向 量 的 相似 度 ， 取 相似 度 
最 大 值 的 中 心 向 量 所 在 类 别 作为 样本 的 类 别 即 可 。 


一 kk- 近邻 (K-Nearest-Neighbor，KNN) 分 类 方法 : 这 是 一 种 非常 有 效 的 归纳 推理 
方法 ， 直 观 地 讲 ，k- 近 邻 分 类 方法 就 是 从 测试 文档 d 开始 生长 ， 并 不 断 扩 大 区 
域 , 直到 包含 k 个 训练 样本 点 为 止 , 并 且 把 测试 文档 d 的 类 别 归 为 这 最 近 的 k 
个 训练 样本 点 中 出 现 频率 最 大 的 类 别 。 

一 贝 叶 斯 分 类 器 : 朴素 贝 叶 斯 分 类 器 是 一 种 通用 的 监督 学 习 算法 。 该 方法 首先 将 
已 标注 倾向 性 的 文本 作为 训练 样本 ， 并 选取 句子 中 的 单词 及 词性 标签 等 作为 分 
类 特征 。 另 外 ,语句 中 语气 词 出 现 的 数量 也 被 当 作 判定 文本 倾 回 性 的 一 个 依据 ， 


二 然后 将 这 些 特征 作为 输入 ， 利 用 贝 叶 斯 公式 对 待 标注 文本 进行 分 类 。 
09 - 支持 向 量 机 :这 是 传统 分 类 中 非常 有 效 的 一 种 方法 ， 它 的 分 类 结果 比 朴素 贝 叶 
扬 方法 普遍 要 好 。 其 基本 思路 是 ; 给 定 一 个 训练 集 ， 找 到 一 个 具有 最 大 间隔 的 
© 分 隔 平 面 ( 也 称 超 平面 5， 作为 类 别 的 分 界 。 间 隔 越 大 ， 得 到 的 分 类 器 也 越 
了 好 。 基 于 文档 特征 向 量 ， 通 过 语气 挖 气 将 文档 分 为 正面 和 负面 两 类 。 采 用 支持 
名 向 量 机 方法 相当 于 求解 一 个 带 约束 条 件 的 最 优化 问题 。 
Em. - 条件 随 机 场 ， 这 是 一 个 在 给 定 输入 节点 (也 就 是 观察 值 》 条 件 下 计算 输出 节点 
(也 就 是 标签 ) 的 条 件 概率 的 无 向 图 模型 。 条 件 随机 场 模型 特别 适合 处 理 序列 
GN 标记 问题 ， 在 属性 级 的 情感 倾向 性 分 析 研究 中 ， 被 应 用 于 标记 评论 语气 词 与 评 
> 论 对 象 的 关联 。 

- “最 大 粮 分 类 器 : 这 是 一 种 通用 的 监督 学 习 算法 。 利 用 该 技术 可 以 将 主观 性 文本 


和 客观 性 文本 分 开 。 该 算法 的 思想 是 为 所 有 已 知 的 因素 建立 模型 ， 而 把 所 有 未 


二 知 的 因素 排除 在 外 。 也 就 是 说 ， 要 找到 这 样 一 个 概率 分 布 ， 使 其 满足 所 有 已 知 
© 的 事实 ， 且 不 受 任何 未 知 因素 的 影响 。 该 算法 首先 将 已 标注 倾向 性 的 文本 作为 


训练 样本 ， 从 中 抽取 出 单词 、 词 性 标签 等 作为 特征 ， 另 外 语句 中 语气 词 出 现 的 
数量 也 被 当 作 判定 文本 主观 性 的 一 个 依据 。 然 后 利用 这 些 特征 和 最 大 炉 模 型 为 
待 标注 文本 判定 倾向 性 。 
2.2.2 基于 相似 度 的 方法 
基于 相似 度 的 方法 的 基本 思想 与 人 -近邻 方法 类 似 ， 即 利用 区 个 已 标记 的 样本 点 ， 通 过 
样本 之 间 的 相似 度 ， 来 对 新 的 样本 进行 标记 。 基 于 相似 度 的 方法 采用 语句 间 公 共 单 词 、 短 语 
的 数量 以 及 语义 词典 中 的 词语 相似 度 来 计算 语句 的 语义 相似 度 中 。 
2.2.3 基于 图 模型 的 方法 
对 于 倾向 性 分 析 问 题 , 可 以 利用 词语 或 文本 语义 关系 构建 图 , 将 词语 或 文本 看 作 图 中 的 
顶点 ， 利 用 词语 间或 文本 间 的 关系 为 图 增加 连 边 ， 形 成 一 个 图 模型 ， 然 后 根据 此 模型 及 其 相 
应 算法 来 进行 倾向 性 分 析 。 大量 的 研究 人 员 基 于 图 模型 的 方法 进行 了 研究 , 产生 出 一 系列 成 
果品 
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3 ”实验 设计 和 实验 平台 


3.1 数据 集 


倾向 性 分 析 研 究 离 不 开 数 据 集 。 然而， 目前 倾向 性 分 析 研 究 尚 处 于 初级 阶段 , 国际 上 仅 
有 一 两 个 公布 的 小 规模 语 料 集 ， 而 国内 研究 则 处 于 起 步 阶段 ， 尚 未 见 到 公开 的 可 用 语 料 集 。 
因此 , 构建 一 定 规模 的 标准 语 料 集 是 进行 倾向 性 分 析 的 必要 基础 。 我 们 参照 类 似 美国 语言 数 
据 联盟 (Linguistic Data Consortium ，LDC) 以 及 路 透 社 、 文 本 检索 年 会 (Text REtrieval 
Conference, TREC)、 话 题 监 测 与 追踪 研究 (Topic Detection and Tracking，TDT)” 等 国际 机 构 
建立 的 评测 数据 集 的 标准 , 采用 自主 研发 的 大 规模 网 络 信息 采集 技术 获取 网 络 评论 文本 , 通 
过 自动 和 人 工 标 注 相 结合 的 方法 , 建立 具有 一 定 规模 的 文本 倾向 性 分 析 标 准 数 据 集 。 在 此 基 
础 上 开展 有 效 的 倾向 性 分 析 算 法 的 研究 。 


目前 我 们 已 经 从 互联 网 的 相关 中 文 评论 网 站 采集 并 标注 了 影视 、 教 育 、 房 产 、 笔 记 本 电 

脑 (简称 电脑 )、 手 机 、 电 子 产 品 (简称 电子 )、 股 票 、 酒 店 以 及 书籍 九 个 主题 的 中 文 评论 数 
一 据 将 近 17000 条 。 由 于 同一 主题 的 评论 可 能 出 现在 不 同 的 评论 网 站 , 为 防止 数据 集中 出 现 重 
> 复 的 样本 ， 对 于 特定 的 网 页 地 址 我 们 指定 了 特定 的 采集 者 。 语 料 采集 后 ， 经 过 抽取 ， 转 换 成 
《 统一 的 文本 格式 ， 经 过 自动 标注 和 人 工 校对 文本 极 性 《正面 评论 或 负面 评论 )， 最 终 得 到 可 
荆 用 的 数据 集 。 数 据 集中 的 样本 情况 如 表 1 所 示 : 


表 1. 倾向 性 分 析 数 据 集 样本 情况 


Pm 


这 a 样本 数 
六 加 总 数 负面 正面 
i 影视 1980 1062 918 
2 教育 1476 1012 464 
是 房产 1118 733 385 
,一 电脑 901 451 450 
手机 992 497 495 
CS 电子 1608 554 1054 
二 股票 1047 683 364 
酒店 4000 2000 2000 
书籍 4000 2000 2000 
合计 17122 8992 8130 


数据 集中 教育 、 房 产 、 电 子 三 个 主题 的 正面 和 负面 评论 数量 上 存在 较 大 的 差异 ， 其 它 主 
题 的 正面 和 负面 评论 数量 相当 。 各 类 评论 文档 的 长 度 各 异 。 影 视 类 评论 的 平均 篇 幅 最 长 ， 约 
为 500 个 汉字 ;手机 类 评论 的 平均 篇 幅 最 短 ， 约 为 60 个 汉字 。 
3.2 评价 标准 
情感 倾向 性 分 析 〈 和 包括 情感 词典 构建 ) 研究 通常 使 用 四 种 标准 评价 ; 准确 率 (Pre- 
cision)， 人 召回 率 (Recall),F 值 和 精度 (Accuracy)。 

设 a 表示 分 类 器 判断 为 正 向 ， 且 与 人 工 标 注 结果 一 致 的 样本 数 ，a, 表示 分 类 器 判断 为 
负 疝 ， 且 与 人 工 标注 结果 一 致 的 样本 数 ， 疡 表示 分 类 器 判断 为 正 向 的 样本 数 ， 疡 表示 分 类 


1 


到 国家 标准 研究 院 NIST) 组织 
到 语言 数据 联盟 组 织 


世 北 
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器 判断 为 负 向 的 样本 数 ，a 表 示人 工 标注 为 正 向 的 样本 数 ， cz 表示 人 工 标注 为 负 向 的 样本 


数 ， 则 准确 率 计 算 公 式 为 : 


人 da 十 Q 
Precision = 一 一 一 (1) 


1 
b +b, 


召回 率 计算 公式 为 : 


十 
Recall = 一 (2) 
C +c， 


F 值 计 算 公 式 为 : 


FF 2x Precision x Recall 3) 


Precision + Recall 


在 许多 实际 Web 应 用 中 ， 通 常会 为 了 提高 
确 率 而 适当 牺牲 一 些 召回 率 。 

此 外 , 还 可 以 使 用 精度 作为 倾向 性 分 析 系 统 的 
评价 标准 ， 其 定义 如 下 ; 
分 类 正确 的 文本 数 
”测试 文本 总 数 9 


Accuracy= 


3.3 实验 平台 


为 了 使 用 户 能 够 方便 、 快 捷 、 自 动 进行 文本 倾 
向 性 分 析 ， 我 们 开发 了 一 套 文本 倾向 性 分 析 系 统 。 
该 系统 可 以 对 采集 到 的 文本 进行 倾向 性 分 析 , 并 给 
出 最 终 判 别 结果 。 该 系统 的 原理 下 文 详 述 ， 系 统 界 
面 如 图 1 所 示 。 


4 ”基于 监督 学 习 的 情感 倾向 性 分 析 


基于 监督 学 习 的 文本 倾向 性 分 析 是 当前 的 研 
究 热 点 。 然而 , 基于 监督 学 习 的 倾向 性 分 析 方 法 还 
有 许多 或 待 解决 的 问题 : (1) 如 何 确 定 各 种 有 监督 
的 学 习 方 法 在 中 文 数 据 集 上 的 倾向 性 分 析 效 果 熟 
优 熟 劳 ; (2) 文本 特征 表示 方法 和 特征 选择 机 制 等 
因素 对 中 文 倾向 性 分 析 的 性 能 将 产生 什么 影响 ; 


“ DRAP 情 感 发 现 系统 -试用 版 
| I 


袜 获 | 。 保存 分 类 结果 | 开始 入 类 | 
FE 


旧 遇 员 吕 器 器 避 避 器 品 喘 吕 器 避 吕 


图 1 倾向 性 分 析 系 统 界面 


(3) 文档 集 的 哪些 情感 特征 对 倾向 性 分 析 的 精度 具有 决定 性 影响 ， 等 等 。 本 节 集 中 研究 前 
两 个 问题 , 通过 分 析 常 规 分 类 方法 的 特点 , 研究 各 种 特征 表示 和 特征 选择 方法 对 倾向 性 分 析 
结果 产生 的 影响 ， 并 对 实验 结果 进行 了 详细 对 比分 析 宫 。 


4.1 基本 原理 


基于 监督 学 习 的 方法 主要 包括 以 下 几 个 方面 的 内 容 : 倾向 性 特征 的 提取 、 表 示 、 压 缩 和 


倾向 性 分 类 器 的 训练 中 。 
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(1) 特征 提取 

对 于 一 个 原始 文档 , 将 其 切 分 成 句子 , 然后 通过 语法 分 析 器 有 选择 地 进行 词语 切 分 ,经 
过 一 系列 转换 后 形成 向 量 列表 , 这 个 过 程 称 为 特征 提取 。 有 很 多 处 理 方法 可 以 应 用 于 特征 提 
取 : 


词典 过 滤 方 法 可 分 为 基于 WordNet 的 方法 和 基于 语法 成 分 (part-of-speech，POS) 标 
注 的 方法 两 种 。WordNet 过 滤 法 是 将 词语 替换 成 WordNet 中 可 能 的 同义词 集合 。POS 标注 
法 认为 ， 对 于 单个 短语 或 词汇 来 说 ， 只 有 当 它 们 在 句子 中 充当 某 些 特定 的 成 分 时 ， 才 可 能 用 
来 表达 观点 倾向 性 ， 充 当 其 它 成 分 时 ， 就 属于 倾向 性 分 析 的 噪音 ， 应 当 被 过 滤 掉 。 


形容 词 评价 方法 : 立足 于 提取 和 分 析 形 容 词 评价 组 ,这 些 形容 词 评 价 组 由 一 个 主干 形容 
词 ( 如 “beautiful” 或 “boring”) 通 过 有 选择 地 与 一 系列 修饰 成 分 (如 “very”, “sort of”, or “not”) 
组 合 而 衍生 出 来 。 


《2) 特征 表示 


进行 倾向 性 分 析 之 前 , 首先 需要 把 数据 集中 的 文本 表示 成 特征 , 这 可 以 采用 反映 文本 语 
言 学 特征 的 元 素来 表示 , 如 使 用 词 、n-Gram”、 词组 和 概念 等 ,向 量 空间 表示 模型 (Vector space 
model，VSM) 是 目前 文本 表示 的 主要 方法 ， 相 关 研 究 集 中 在 以 什么 语义 单元 作为 项 及 如 何 
计算 项 的 权重 两 个 问题 上 , 通常 以 项 的 出 现 频率 作为 基础 计算 权重 。 也 有 一 些 文本 表示 方法 
希望 通过 借鉴 自然 语言 处 理 技 术 , 考虑 被 词 袋 忽略 的 语义 单元 间 的 联系 , 将 词义 及 短语 等 
杂 的 项 应 用 到 分 类 方法 的 文本 表示 中 。 不 过 这 些 表示 方法 在 分 类 效果 上 还 没有 明显 的 优势 ， 
而 且 往往 需要 比较 复杂 的 语言 预 处 理 , 在 分 类 时 会 影响 分 类 器 的 速度 。 到 目前 为 止 , 非 VSM 
的 表示 在 理论 上 的 合理 性 及 面 对 实际 应 用 的 可 扩展 性 还 需要 深入 验证 。 


《3) 特征 选择 


用 特征 表示 方法 生成 的 特征 中 可 能 存在 很 多 噪声 , 通过 特征 选择 舍弃 一 些 不 太 重 要 的 特 
征 ， 将 有 效 消除 噪声 的 影响 ， 降 低 向 量 空间 的 维 数 ， 简 化 计算 ， 防 止 过 分 拟 合 。 特 征 选择 是 
根据 某 种 准则 从 原始 特征 中 选择 部 分 最 有 类 别 区 分 能 力 的 特征 ,常见 的 用 于 特征 选择 的 衡量 
标准 有 文档 频率 、 信 息 增益 、 互 信息 和 CHI 统计 等 ， 因 其 复杂 度 较 低 而 应 用 广泛 。 特 征 数 
量 的 变化 和 分 类 器 效果 紧密 相关 。 有 关 文 献 的 结论 表明 : 合理 的 特征 选择 方法 会 使 多 数 分 类 
器 的 性 能 快速 提高 并 能 迅速 接近 平稳 ; 但 若 特 征 数目 过 大 , 分 类 器 的 性 能 反而 可 能 出 现 缓慢 
降低 。 

(4) 文本 分 类 器 选择 


有 很 多 文本 分 类 方法 可 应 用 于 倾向 性 分 析 ， 如 中 心 向 量 法 、k- 近 邻 法 、 感 知 器 分 类 法 
(Winnow 算法 )、 朴 素 贝 叶 斯 法 和 支持 向 量 机 方法 等 。 


4.2 实验 及 结果 分 析 
我 们 采用 影视 、 教 育 、 房 产 、 电 脑 和 手机 五 个 主题 的 中 文 评论 数据 进行 了 下 述 实 验 。 
(1) 基于 n-Gram 的 特征 表示 方法 实验 结果 分 析 


本 实验 中 ， 我 们 分 别 采 用 了 三 种 类 型 的 特征 表示 方法 ， 即 UniGrams、BiGrams 和 


下 


3 N-Gram 是 大 词汇 连续 语音 识别 中 常用 的 一 种 语言 模型 ， 一 个 “n-gram” 就 是 在 给 定 序列 中 的 一 个 包含 n 
项 的 子 序列 
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TriGrams。 其 它 实 验 条 件 相 同 ， 即 对 于 每 个 主题 ， 使 用 50% 的 数据 作为 训练 集 ， 剩 余 50% 
的 数据 作为 测试 集 ， 选 取 全 部 特征 ， 使 用 支持 向 量 机 分 类 方法 。 实 验 结果 如 下 : 


表 2， 基 于 n-Gram 的 特征 表示 方法 分 类 精度 比较 
影视 教育 房产 ”电脑 ”手机 
UniGrams 83.0 97.9 96.1 92.0 97.4 
BiGrams 83.0 97.4 96.8 94.2 97.2 
TriGrams 81.8 93.1 92.7 91.6 96.6 
从 上 表 中 可 以 看 出 ， 整 体 而 言 ，BiGrams 要 略 好 于 另外 两 种 。 
(2) 基于 不 同 词性 的 特征 表示 方法 实验 结果 分 析 
通过 对 评论 语 料 进行 分 析 ， 我们 发 现 , 倾向 性 分 析 与 其 它 分 类 的 差别 在 于 ,情感 的 正面 
表达 和 负面 表达 主要 以 形容 词 、 副 词 和 少数 动词 和 名 词 的 表达 为 主 。 因 此 ， 我们 使 用 不 同 词 
性 的 词 来 表示 特征 ， 对 选取 四 种 词性 中 的 一 种 和 选取 它们 的 全 部 (下 表 中 的 nvaa) 分 别 进 
行 了 实验 ， 实 验 结果 如 下 : 
表 3. 不 同 词性 作为 特征 表示 方法 的 分 类 精度 比较 
影视 教育 房产 电脑 手机 
名 词 78.2 95.4 95.7 69.4 88.1 
动词 71.1 949 945 73.9 84.1 
形容 词 63.0 86.2 792 749 82.2 
副词 58.6 86.2 698 73.6 80.2 
nvaa 81.5 97.4 96.4 89.8 96.8 


从 整体 实验 结果 来 看 ， 以 单个 词性 为 特征 的 分 类 精度 均 比 表 2 中 n-Gram 为 特征 的 分 类 
精度 要 差 很 多 。 以 四 种 词性 为 特征 的 分 类 精度 却 能 和 n-Gram 的 精度 相当 。 对 于 单个 词性 而 
言 , 各 领域 中 基本 都 是 名 词 和 动词 作为 特征 的 分 类 精度 要 比 形容 词 和 副词 的 结果 好 ， 只 有 个 
别 领域 有 不 同情 况 。 这 与 预想 中 形容 词 和 副词 带 有 绝 大 部 分 情感 特征 的 想法 有 较 大 差异 。 
(3) 基于 不 同 的 特征 选择 方法 实验 结果 分 析 

我 们 分 别 采用 了 互信 息 (MD、 信 息 增益 0G)、CHI 统计 量 (CHD 和 文档 频次 (DF) 四 种 不 同 
的 特征 选择 方法 进行 了 实验 。 其 它 实验 条 件 相同 ， 实 验 结果 如 表 4 所 示 。 从 中 可 见 ， 使 用 互 
信息 和 CHI 进行 特征 选择 ， 由 于 它们 对 低频 词 的 倚重 ， 必 定 会 将 更 多 的 低频 词 作为 特征 使 
用 ， 从 而 导致 了 分 类 效果 不 如 文档 频次 。 而 信息 增益 不 但 考虑 了 类 别 信息 ， 而 且 考虑 了 低频 
词 对 分 类 结果 的 影响 ， 因 此 分 类 效果 最 好 。 

(4) 基于 不 同 分 类 方法 实验 结果 分 析 
表 4， 不 同 特征 选择 方法 的 分 类 精度 比较 。 表 5， 不 同 分 类 方法 的 分 类 精度 比较 


互信 息 信息 增益 CHI 文档 频次 下心 区- 近 邻 感知 器 NB 文生 

向 量 向 量 机 
影视 ”61.2 75.7 629 67.5 影视 79.5 80.4 74.6 78.2 83.0 
教育 83.3 972 83.7 92.4 教育 95.0 96.6 93.2 95.8 97.4 
房 忆 ”781 96.6 93.7 93.7 房产 94.0 95.5 88.7 95.2 96.8 
电脑 ”72.1 93.3 90.2 91.6 电脑 92.5 88.9 82.0 89.4 94.2 
手机 63.7 97.3 942 95.8 手机 95.8 921 87.9 96.2 97.2 


以 BiGrams 作为 特征 表示 方法 , 对 于 每 个 主题 , 使 用 50% 的 数据 作为 训练 集 , 剩余 50% 
的 数据 作为 测试 集 , 在 选取 全 部 特征 的 情况 下 , 我 们 分 别 采 用 了 中 心 向 量 、K- 近 邻 、 感 知 器 、 
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在 以 上 几 种 分 类 方法 9 


(5) 基于 不 同 特征 数量 实验 结果 分 析 


采用 信息 增益 选择 的 特征 , 按照 特征 权 


1 和 支持 向 量 机 五 种 不 同 的 分 类 方法 进行 了 实验 。 实 验 结 果 见 表 


PF， 相 比 而 言 ， 支持 向 量 机 的 分 类 效率 较 低 ， 但 


E 值 大 小 降序 排列 ， 选 取 权 


(500 个 , 1000 个 , ..…., 10000 个 ) 特征 进行 实验 ， 精 度 随 特征 数 


表 6. 不 同 数量 特征 的 分 类 精度 比较 


特征 数量 。 500 
影视 62.8 
教育 94.2 
房产 90.5 
电脑 86.0 
手机 93.8 


1000 2000 3000 4000 
65.8 Zl 73.6 75.8 
94.7 96.5 97.2 973 
91.8 93.4 B52 96.1 
88.9 88.5 91.6 92.0 
95.6 96.8 94.8 95.8 


Vol.8 No.4 
Jul. 2010 


4 和 表 5。 


精度 明显 高 于 草 


它 


E 值 靠 前 的 一 定数 量 


山 | 


量变 化 的 情况 如 表 6 所 示 : 
6000 8000 10000 
73.3 75.3 75.7 
97.7 98.1 97.2 
95.0 95.9 96.6 
93.3 93.8 93.3 
96.0 97.6 97.4 


从 实验 结果 来 看 ， 对 于 一 定 的 分 类 数据 集 ， 并 非 选择 的 特征 数量 越 多 越 好 。 
《6) 基于 不 同 规模 训练 集 的 实验 结果 分 析 


1/3 1/4 1/5 
78.1 57 3 
93.5 92.0 90.4 
94.3 91.6 90.2 
87.4 84.9 84.5 
94.8 93.5 B52 


1/6 
yas 
87.9 
88.6 
81.4 
86.9 


177 
68.8 
85.9 
82.8 
84.3 
930 


< 


1/8 1/9 1/10 
70.1 69.4 69.6 
82.8 82.8 82.4 
80.9 84.6 ZZ 
80.3 80.9 79.8 
910 9L6 91.6 


手机 


规模 。” 全部。 1/2 
影视 83.0 80.0 
教育 97.4 ”95.7 
房产 96.8 95.5 
电脑 94.2 ”90.2 
97.2 96.6 
前 面 各 实验 ， 


为 测试 集 。 表 7 的 实验 用 来 考察 不 同 
集 的 全 部 、1/2、1/3... 直 到 1/10， 在 


办 


况 下 ， 足 够 大 的 训练 集 对 于 较 高 的 分 类 精度 具有 决定 性 


4.3 本 节 小 结 


通过 本 节 实 验 表明 : 在 基于 监督 学 习 的 中 文 倾向 怕 
有 一 定 的 影响 ; 文档 频次 特征 选择 方法 相对 于 互信 息 、CHI 和 不 
占 优 ; n-Gram 特征 表示 方法 能 产生 
整合 更 多 情感 表达 的 特 


体 情感 特征 ; 


部 测试 集 上 进行 实验 


FE 分 析 中 ， 


Jo 


语 料 的 语言 风格 对 


比较 ,支持 向 量 机 分 类 方法 在 精度 方面 具有 
的 维 数 并 非 越 多 越 好 ， 分 类 精度 将 在 一 定 的 多 
对 于 较 高 的 分 类 精度 具 
择 方法 和 支持 向 量 机 分 类 方法 , 在 足够 大 训 


能 取得 较 好 的 效果 W”。 


5 


有 


决定 性 作用 。 总 之 ， 


一 条 


领域 情感 词典 构建 
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杰 焦 


AI 


好 的 结果 ， 而 单一 词 人 
F 来 进行 分 类 ， 才 可 


合 


月 


# 提 


FE 的 词 
高 分 类 


明显 的 优势 , 在 数据 集 


人 


精度 ; 和 其 它 


加 
分 类 


I 信息 增益 等 特征 选择 方法 
不 能 反映 网 络 评论 


分 类 


[2 
二 


C 


定 的 情况 下 ， 特 和 


lk 数 达 到 最 大 值 


\ 证 常情 


和 选择 适当 数 


通常 


三 | 
EE 


月 


; 况 下 ,足够 大 的 训练 集 
采用 n-Gram 特征 表示 方法 、 信 息 增益 特征 选 
寺 征 的 情况 下 , 倾向 怕 


分 


， 对 于 每 个 领域 ， 都 使 用 了 50% 的 数据 作为 训练 集 ， 剩 余 50% 的 数据 作 
纲 模 的 训练 集 对 分 类 精度 的 影响 ,我 们 分 别 选 取 了 训练 
， 结 果 如 表 7 所 示 。 说 明 通 常情 
作用 


结果 
并 不 

的 整 
方法 
:空间 


后 


中 文 情感 倾向 性 分 析 的 相关 研究 进 怕 


对 一 篇 文档 而 言 ,能 对 其 语义 倾向 起 到 决定 性 作用 的 主要 是 构成 这 篇 文档 所 用 的 词语 。 
所 以 ,对 文本 进行 基于 情感 的 文本 分 类 的 基础 是 判定 词 的 语义 倾向 。 但 是 ， 目 前 不 论 是 英语 
还 是 汉语 ， 都 没有 ， 也 不 可 能 有 一 个 完整 的 涵盖 所 有 词语 的 语义 倾向 词典 ， 因 为 很 多 的 词语 
在 不 同 语 境 中 的 语义 倾向 不 尽 相 同 。 因 此 ， 对 于 文本 倾向 性 分 析 研 究 来 说 ， 设 计 高 效 的 情感 
词典 构建 算法 是 一 个 相当 基础 而 且 重 要 的 工作 , 对 于 推动 文本 倾向 性 分 析 技 术 的 发 展 、 发 挥 
文本 倾向 性 分 析 的 潜力 并 促进 其 实用 化 和 商业 化 具有 重要 的 现实 意义 。 

本 节 以 通用 情感 词典 构建 及 领域 情感 词典 构建 为 目标 ， 从 以 下 几 个 方面 来 研究 该 问 


题 P325 。 
5.1 基于 函数 优化 的 通用 情感 词典 构建 

本 节 提 出 一 个 可 扩展 的 词汇 语义 倾向 计算 框架 , 将 词语 语义 倾向 计算 问题 归结 为 优化 问 
题 。 在 算法 实现 上 ， 首 先 利用 多 种 词语 相似 度 计算 方法 构建 词语 无 向 图 ， 然后 利用 以 “最 小 
切 分 ”为 目标 的 目标 函数 对 该 图 进行 划分 ， 并 利用 模拟 退火 算法 进行 求解 站。 
5.1.1 基本 原理 

假定 用 一 个 无 向 图 来 表示 字典 中 所 有 词语 的 关系 。 本文 基于 这 样 的 假设 : 具有 较 大 的 相 
似 度 的 两 个 词语 更 有 可 能 具有 相同 的 语义 倾向 。 这 样 , 词语 的 语义 倾向 计算 问题 可 以 归结 关 
对 图 进行 划分 ,使 得 符号 相同 的 节点 子 图 相似 度 之 和 最 大 ; 同时 ,让 符号 相 异 的 节点 子 图 相 
似 度 之 和 最 小 。 这 样 ， 就 确定 了 图 中 每 个 词语 的 语义 倾向 。 

本 文 以 “最 小 切 分 ”为 目标 对 图 进行 划分 ， 目 标 函 数 需 满足 以 下 几 个 条 件 (1)〉 奖 励 子 
类 内 部 的 连 边 ; (2) 惩罚 子 类 内 部 的 非 连 边 :;， (3) 惩罚 子 类 间 的 连 边 ; (4) 奖励 子 类 间 的 非 
连 边 。 同 时 ， 可 以 将 目标 函数 所 满足 的 条 件 归 为 两 类 : 条 件 (1) 和 条 件 (2) 用 于 增加 子 类 
的 内 聚 性 ;， 条件 〈3) 和 条 件 〈4) 用 于 减少 子 类 之 间 的 耦合 性 。 

这 样 ， 我 们 得 到 了 一 个 可 扩展 性 较 好 的 词语 语义 倾向 计算 框架 : 
(1) 利用 词语 间 关 系 构 建 词语 无 向 网 络 图 (本 文 分 别 使 用 基于 词典 和 基于 语 料 两 种 方法 )。 
(2) 将 词语 语义 倾向 计算 问题 转化 为 图 划分 问题 ， 并 进一步 转化 为 函数 优化 问题 (本文 以 
二 “最 小 切 分 ”思想 设计 目标 函数 )。 
© (3) 构建 求解 算法 对 目标 函数 进行 求解 〈 本 文 使 用 模拟 退火 算法 进行 求解 )。 
在 下 面 小 节 中 ， 将 分 别 介绍 该 框架 的 几 个 组 成 部 分 。 
5.1.2 词汇 相似 度 计算 

词汇 相似 度 是 用 于 度量 词语 之 间 的 相似 程度 。 通 常 ， 相 似 度 值 被 定义 为 0 到 1 之 间 的 一 
个 实数 ， 绝 对 值 越 大 ， 相 似 度 越 高 。 本 文 分 别 采 用 了 基于 语 料 统计 的 相似 度 计算 方法 和 《 知 
网 (HowNet)》 提 供 的 词语 相似 度 计 算 方 法 作为 构建 词语 无 向 网 络 图 的 基础 。 
(1) 基于 共 现 率 的 词语 相似 度 

互联 网 作为 一 个 巨大 的 语料库 ， 其 价值 已 被 越 来 越 多 的 人 认识 。 可 以 利用 搜索 引擎 ， 将 
传统 的 基于 词语 共 现 率 计 算 相 似 度 的 方法 进行 适当 变化 , 使 其 可 以 应 用 于 互联 网 语 料 。 利用 
上 述 各 种 方法 可 以 得 到 的 两 两 词语 之 间 的 相似 度 ， 构 造 词语 无 向 网 络 图 。 
(2) 基于 《 知 网 》 的 词语 相似 度 


互 


er 
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《 知 网 》 是 一 个 以 汉语 和 英语 词语 所 代表 的 概念 为 描述 对 象 ， 以 揭示 概念 与 概念 之 间 以 

及 概念 所 具有 的 属性 之 间 的 关系 为 基本 内 容 的 常识 知识 库 X。 本 文 使 用 了 《 知 网 》 提 供 的 语 

义 相 似 度 的 计算 功能 ， 根 据 论 文 [1 中 的 原理 编写 的 词汇 语义 相似 度 计 算 程序 实现 了 词语 之 
间 语 义 相 似 度 的 计算 。 


5.1.3 问题 求解 
于 该 问题 是 一 个 NP 完全 问题 中， 本 文 引入 模拟 退火 的 思想 ,将 问题 求解 转化 为 在 目 
标 函 数 的 解 空 间 中 搜索 最 优 解 的 过 程 。 

模拟 退火 算法 是 局 部 搜索 算法 的 扩展 , 它 不 同 于 局 部 搜索 之 处 是 以 一 定 的 概率 选择 领域 
中 的 最 优 值 状 态 ， 理 论 上 已 经 证 明 它 是 一 个 全 局 最 优 算法 并 且 以 概率 1 接近 最 优 值 。 


基于 模拟 退火 的 词语 语义 倾向 判定 算法 〈SOSA 算法 ) 首先 将 网 络 随机 初始 化 ， 并 设 定 
一 个 高 的 初始 “温度 ”T(1)。 模 拟 退 火 算法 能 否 找 到 全 局 最 优 解 ， 取 决 于 初始 温度 TCD 是否 足 
够 高 以 及 温度 下 降 得 是 否 足够 慢 ， 而 这 些 正好 与 程序 收敛 时 间 相 矛盾 。 为 了 平衡 解 的 质量 与 
收敛 速度 , 我 们 通过 实验 将 算法 的 这 些 参数 调整 为 比较 合适 的 值 。 然 后 随机 地 选择 一 个 节点 
i， 假 定 其 现在 的 状态 是 wi = +1， 计 算 在 这 种 构 型 下 的 系统 总 能 量 下 。 ， 接 着 ， 再 计算 如 果 
改变 到 候选 状态 ， 即 wi =-1 时 ， 对 应 的 系统 能 量 已 ， 如 果 候 选 状态 的 能 量 E。 <E。， 则 
接受 这 个 状态 改变 ;如果 能 量 Es 反而 更 高 ， 则 以 概率 exp{-4Euw /T(K)} 接受 这 个 状态 的 改 
变 。 其 中 ，4E = Eb-Ea。 


SOSA 算法 持续 多 次 随机 轮 询 〈 选 择 并 测试 ) 节点 ， 并 根据 以 上 方式 进行 状态 改变 。 然 
后 ， 逐 渐 将 温度 下 降 ， 重 复 下 一 轮 操作 。 接 受 能 量 增 加 的 候选 状态 的 概率 也 逐步 下 降 。 算 法 
继续 进行 ， 直 到 每 个 节点 都 被 访问 多 次 后 ,温度 进一步 下 降 ， 查 询 过 程 也 重复 进行 。 当 温度 
非常 低 时 ， 接 受 能 量 增加 的 状态 转移 的 概率 非常 小 ， 此 时 系统 的 行为 类 似 贪心 算法 。 


5.1.4 实验 结果 分 析 
本 节 实 验 使 用 了 情感 博客 、 电 影评 论 和 笔记 本 电脑 三 个 主题 的 中 文 评论 数据 。 


表 8，40 组 褒贬 基准 词 

衰 义 基准 词 贬义 基准 词 
震动 人 心 | 赂 峰 不 良 次 病 痢 呆 
感 别 具 匠 心 | 大 师 “| 功利 主义 固步自封 。 悉 | 惨不忍睹 
| > 甘 之 如 馈 | 独到 诡异 狠毒 假冒 “ 吹 毛 求 痉 
恰到好处 | 优 才华 横 溢 | 创造 力 | 尖酸 浑 浑 填 于 | 暴 珍 天 物 | 自 不 量力 
如 火 如 茜 | 力 透 纸 背 | 逼真 薄 情 保守 “| 饱 食 终日 | 崩 演 

灿烂 有 飞扬 青春 “| 画蛇添足 委屈 坏 变态 

和 谐 宽 自由 自在 | 欢 愉 呆板 | 游离 | 走火 入 魔 | 痛苦 

诚实 普 和 平 文明 煽情 叶 头 “上 支离破碎 | 郁 间 


词语 的 语义 倾向 判断 具有 不 确定 性 ， 表 现在 两 个 方面 : 首先 ， 部 分 词语 在 不 同 的 语 用 环 
境 下 具有 不 同 的 语义 倾向 。 其 次 ， 对 于 同一 个 词 ， 不 同 的 人 的 判断 也 是 有 差异 的 。 为 减少 上 
述 因素 产生 的 影响 ， 本 文 在 从 文档 测试 集 生成 词语 测试 集 时 ， 采 用 多 人 共同 标注 的 方法 ,jj 
在 构建 通用 领域 测试 集 时 尽量 避免 选择 语义 倾向 与 语 用 领域 相关 的 词语 。 最 终 , 本 文 共生 成 
3 个 词语 测试 集 ， 分 别 用 Set1、Set2、Set3 表示 。 


表 8 中 列 出 了 实验 中 所 使 用 的 基准 词 。 
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最 终 词 汇 实 验 结果 如 表 9 所 示 : 


该 实验 证 明了 本 文 方法 的 有 效 愧 


表 9， 词 ; 


方法 


HowNetPMI 


当 


PCJaccardSA 


PCOverlapSA 


Setl 


测试 集 


Set2 


Set3 


Setl | Set2 | Set3 


Setl 


Set2 


Set3 


准确 率 (%) 


78.6 


80.7 


81.2 


88.9 | 87.8 | 88.2 


88.4 


86.9 


87.4 


方法 


PCDiceSA 


PCPMISA 


HowNetSA 


测试 集 | Setl 


Set2 


Set3 


Setl | Set2 | Set3 


Setl | Se 


t2 | Set3 


92.6 


准确 率 (%) 


90.3 


90.1 


89.7 | 88.2 | 87.7 


5.2 基于 Modularity 优化 的 通用 情感 词典 构建 
本 节 提 出 了 一 种 新 的 利用 函数 优化 进行 词语 语义 倾 问 计算 的 方法 , 该 方法 可 以 自动 地 从 


字典 或 语 料 集 


5.2.1 基本 原理 


本 文采 月 


区 


划分 方 ; 


i 


数 ， 如 


(组 合 性 ) 优化 的 方法 。modularity 是 由 纽曼 〈(M.E.J.Newman) 提出 的 ， 最 早 是 作为 衡量 


网 络 划分 好 坏 的 一 种 度量 。modularity 值 〈 也 叫做 Q 值 ) 日 


其 中 ， 


社区 发 现 研究 是 对 


日 以 下 的 假设 : 具有 
去 能 


95 | 90 


E 和 实用 性 (详细 介绍 请 参见 [21])。 


.3 | 90.6 


生成 带 有 语义 倾向 的 词语 列表 。 该 方法 主要 采用 基于 modularity 优化 的 算 
法 ， 可 以 实现 较 高 的 词语 语义 倾向 计算 准确 率 。 


较 高 相似 度 的 词语 通常 具有 相同 的 语义 倾向 。 如 前 文 所 述 ， 
划分 的 角度 进行 词语 语义 倾向 


够 更 好 地 利用 词语 间 的 全 局 信息 , 所 以 本 文 从 医 


名 


通常 ， 以 “最 小 切 分 ”为 目标 的 


Q=2 (es -a?), 


ei 


ai = 2 er 


是 
表示 社区 i 和 社区 j 之 间 的 


图 划分 方法 的 深入 和 扩 


标 函 数 需 满足 85.1.1 提出 的 几 个 条 但 
果 将 所 有 节点 划 为 一 类 ， 则 无 疑 可 以 使 其 得 到 极 值 ， 但 这 村 


展 ， 其 中 具有 代表 和 


占 总 边 数 的 比例 ; 


F。 对 于 该 目标 函 
的 平凡 解 是 没有 意义 的 。 


的 方法 是 基于 modularity 


的 通常 计算 方法 为 


洒 
表示 有 一 个 端点 在 社区 i 中 的 边 占 总 边 数 的 比例 。 基 于 modularity 优化 的 方法 与 图 划分 


其 进行 词语 语义 倾向 计算 。 


5.2.2 算法 基本 过 程 


本 文采 月 


-会 已 


方法 的 目标 是 一 致 的 , 但 该 方法 能 


够 避免 图 划分 方法 易于 陷入 


上 以 下 步骤 进行 词语 语义 倾向 计算 。 


F 凡 解 的 弱点 ， 因 


此 本 文采 用 


第 一 步 ,构建 词语 相似 度 矩 阵 本 文采 用 两 种 词语 相似 度 计 算 方法 构建 词语 相似 度 矩 阵 。 
第 一 种 方法 ， 利 用 《 知 网 》 提 供 的 相似 度 函 数 ， 第 二 种 方法 ， 利 用 语 料 


标 函 数 ， 按 照 能 够 使 函数 值 极 大 的 方式 将 


有 具体 步骤 是 : 


第 二 步 ， 词 语 语义 倾向 计算 基于 之 前 得 到 的 词语 相似 度 外 


划分 为 两 个 不 相交 的 子 图 。 
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es 


E 阵 ， 我 们 以 modularity 为 


中 词语 的 共 现 信息 。 


ne 
I 
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通过 词语 相似 度 邻 接 和 矩阵 构建 modularity 和 矩阵。 

- 找到 对 应 于 最 大 特征 值 的 特征 向 量 , 向量 中 每 个 元 素 对 应 每 个 待 计算 语义 倾向 的 
词语 ， 将 这 些 词语 按照 元 素 值 的 正 负 分 为 两 类 。 

- 对 于 每 类 词语 , 首先 手工 确定 该 类 中 对 应 最 大 元 素 值 的 词语 的 语义 倾向 , 用 其 作 
为 这 个 类 别 的 语义 倾向 。 

- 持续 地 在 两 类 之 间 交 换 词语 ， 直 到 modularity 值 稳定 。 


返回 测试 集中 每 个 词语 的 语义 倾向 。 
5.2.3 实验 结果 分 析 


本 小 节 使 用 教育 评论 、 电 子 产品 评论 和 股票 评论 三 种 语 料 ， 整 体 测试 基于 modularity 优 
化 的 方法 在 《 知 网 》 生 成 的 测试 集 以 及 共 现 测试 集 上 的 准确 率 。 


表 10.PMI4 方 法 中 使 用 的 基准 词 


页 面 数 页 面 数 页 面 数 页 面 数 
i : 词语 词语 
词语 (单位 : 百 万 ) 词语 [单位 : 百 万 ) 词 |t | 词 ee 


好 2,400 | 活力 77.2 着 误 214 糊涂 29.4 
积极 220 舒服 69.6 不 良 190 毛病 26.2 
优秀 219 出 色 53.7 痛苦 96.4 悲惨 24.4 
漂亮 203 感激 50.5 郁 闽 68.8 扭曲 18.1 


本 文 使 用 中 文 分 词 软件 ICTCLAS” 从 网 页 中 抽取 词语 。 抽 取出 的 词语 如 果 也 在 《 知 网 》 
出 现 ， 则 将 其 加 入 词语 测试 集 Termsetl 中 。 如 前 所 述 ， 词 语 的 语义 倾向 判断 具有 不 确定 
性 ,为 减少 上 述 因 素 产 生 的 影响 , 本 文 在 词语 测试 集 Termset1l 的 基础 上 生成 测试 集 Termset2 
和 Termset3。 生 成 时 ， 采 用 多 人 共同 标注 的 方法 ， 并 尽量 避免 选择 语义 倾向 与 语 用 领域 相关 
的 词语 。 本 文 实验 的 另外 三 个 词语 测试 集 为 利用 语 料 中 的 词语 共 现 信息 得 到 , 采用 整 篇 文档 
件 为 共 现 窗口 。 在 去 除 孤 立 节 点 〈 未 与 任何 其 他 词语 在 语 料 中 共 现 ) 后 ， 得 到 三 个 测试 集 ， 
编号 分 别 为 4、5、6。 


为 验证 基准 词 对 于 实验 结果 的 影响 , 我们 让 多 人 各 自选 出 一 些 富 含 语气 且 倾 向 明确 的 词 
语 作为 候选 基准 词 。 然 后 将 这 些 词语 用 搜索 引擎 Google 进行 查询 ， 将 所 有 词语 按照 查询 返 
回 的 相关 页 面 数 进行 排序 ， 并 选择 页 面 数量 最 多 的 20 对 词语 作为 基准 词 。 基 准 词 的 详细 信 
息 如 上 面 表 10 所 示 。 


最 后 ， 整 体 测试 基于 modularity 优化 的 方法 在 《 知 网 》 生 成 的 测试 集 以 及 共 现 测试 集 上 
的 准确 率 ， 结 果 如 表 11 所 示 。 


”pointwise mutual information， 点 间 互 信息 《〈 亦 有 译作 逐 点 互信 息 )， 信 息 论 或 统计 理论 中 用 于 度量 相关 度 
”www.searchforum.org.cn 
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S 
装 


表 11. 《 知 网 》HowNet 测试 集 上 的 实验 结果 
方法 
测试 集 


准确 率 
平均 准确 率 


从 表 11 可 以 看 到 ， 本 文 方法 在 测试 集 2 和 测试 集 3 上 的 准确 率 均 高 于 另外 两 种 方法 ; 
在 测试 集 1 上 ， 准 确 率 低 于 PMI 方法 ， 部 分 原因 是 由 于 ， 经 人 工 挑选 后 ， 测 试 集 2 和 测试 
集 3 中 的 词语 具有 更 明确 的 语义 倾向 , 显示 了 较 显著 的 摄取 性 ,使 得 本 文 方法 获得 了 较 高 的 


从 表 12 中 可 以 看 到 ， 在 三 个 共 现 测试 集 上 本 文 方法 的 准确 率 均 高 于 另外 两 种 方法 ， 并 
且 本 文 方法 在 三 个 测试 集 上 的 准确 率 是 稳定 的 , 说 明 本 文 方法 对 于 语 料 规模 大 小 相对 较 不 敏 
感 。 


5.3 基于 扩展 信息 瓶颈 的 领域 情感 词典 构建 


人 类 的 语气 表达 具有 极 强 的 领域 相关 性 ， 因 此 , 在 实际 应 用 中 ,为 了 获得 更 好 的 文本 倾 
向 性 分 析 的 性 能 ， 需 要 为 每 个 领域 建立 各 自 的 相关 情感 词典 ， 而 由 于 领域 众多 ， 由 人 工 构建 
领域 情感 词典 是 不 切实 际 的 。 因此 ,寻找 到 快速 、 实 用 的 领域 情感 词典 构建 算法 就 成 了 极为 
重要 的 工作 。 我 们 需要 解决 如 何 利用 一 个 已 知 领域 ( 即 源 领 域 ) 的 标注 数据 对 另 一 个 领域 ( 即 
目标 领域 ) 进行 倾向 性 分 析 ， 这 就 是 跨 领 域 倾向 性 分 析 问 题 。 解 决 好 此 问题 ， 才 能 真正 有 助 
于 倾向 性 分 析 的 大 范围 应 用 。 目 前 多 数 方法 只 考虑 了 源 领 域 词语 与 目标 领域 词语 之 间 的 关 
系 , 忽略 了 源 领 域 文档 与 目标 领域 词语 之 间 的 关系 以 及 目标 领域 词语 文档 之 间 的 关系 。 针对 
该 问题 ， 本 文 提出 一 个 基于 信息 瓶颈 方法 ™ 的 迭代 增强 模型 ， 来 整合 源 领域 与 日 标 领域 的 
言 息 


Bo 


ty 


hl 


5.3.1 基本 原理 
本 文 方法 基于 以 下 假设 : 
1. 包含 襄 义 词 较 多 的 文档 表现 为 正面 语气 倾向 ;被 较 多 正面 文档 包含 的 词语 表现 为 襄 
义 语 义 倾向 ， 对 贬义 词 亦 是 如 此 。 
2. 尽管 源 领域 与 目标 领域 中 情感 词 的 分 布 有 所 差异 ， 但 两 个 领域 之 间 一 定 存在 一 部 分 
共同 的 部 分 。 


基于 这 两 个 假设 , 才能 利用 源 领 域 中 与 目标 领域 公共 的 那 部 分 知识 对 目标 领域 情感 词典 
构建 进行 指导 。 本 文 更 进一步 定义 了 3 种 关系 ， 用 来 指导 目标 领域 情感 词典 构建 


* 库 尔 贝克 - 莱 布 勒 
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一 WDintra-Relationship: 代表 目标 领域 中 的 情感 词 与 文本 之 间 的 关系 。 
一 WWinter-Relationship: 代表 源 领域 中 的 情感 词 和 目标 领域 情感 词 之 间 的 关系 。 
一 WDinter-Relationship: 代表 源 领域 中 的 文本 与 目标 领域 情感 词 之 间 的 关系 。 
本 文 提出 一 种 领域 情感 词典 构建 模型 ,将 上 述 三 种 关系 融入 一 个 统一 的 框架 进行 考量 。 
5.3.2 信息 瓶颈 方法 


信息 瓶颈 方法 由 提 斯 比 (Naftali Tishby) 等 人 提出 中 I， 其 基本 思想 是 : 给 定 两 个 随机 变 
量 和 和 Y 的 联合 分 布 p(x,y)， 压缩 其 中 一 个 随机 变量 和 ,同时 尽量 维持 两 个 变量 之 间 的 互 
信息 工 x,y) 。 和 著名 的 率 失真 理论 相似 ， 我 们 要 在 尽 可 能 压缩 于 的 表示 长 度 和 尽 可 能 地 保 
留 了 的 信息 之 间 做 出 折 中 。 每 种 压缩 对 应 一 种 从 瑟 到 C 的 赋值 p(c|x)，p(c|x) 表 未 的 

个 取 值 x 对 应 C 中 一 个 取 值 c 的 概率 。 一 般 情 况 下 , 每 个 x 可 以 对 应 C 中 多 个 甚至 所 有 取 
直 c ， 这 种 情况 称 为 软 赋值 ;， 如果 一 个 x 对 应 一 个 c ， 则 称 这 种 赋值 为 硬 赋值 。 信 息 瓶 颈 方 
法 试图 找 出 一 种 最 优 赋值 。 它 通过 计算 条 件 概 率 p(y|x) 与 P(y|e) 之 间 的 库 尔 贝 克 - 莱 布 勒 
= (Kullback-Leibler〉 距离" 来 度量 x 与 c 的 距离 。 


ES 


p(y|x) 
p(yle) ™ 


a Dua [p(ylx)|p(yle)]=zp(ylx)iog 


5.3.3 将 领域 知识 引入 信息 瓶颈 模型 


人 传统 的 利用 信息 瓶颈 的 词 聚 类 方法 在 聚 类 过 程 中 上 只 考虑 了 词语 与 文本 的 关系 。 针 对 本 文 
人 要 解决 的 问题 , 我 们 对 信息 瓶颈 进行 扩展 ， 用 以 将 更 多 的 源 领域 信息 引入 模型 ， 来 完成 目标 
ls, 领域 情感 词典 构建 任务 。 令 I(Wo,Do) 代表 WDintra-Relationship， 了 (Wi,Wo) 代表 
a WWinter-Relationship， 了 (Wo, Di ) 代表 WDinterRelationship。 这 样 ， 传 统 信息 瓶颈 方法 在 聚 
类 过 程 中 的 损失 函数 可 以 通过 引入 源 领域 知识 而 被 扩展 为 : 


三 I(DoWwo) -1 (DoWo) + al (TDiWwo) -1 (Di Wa))+ I (Wi,wo) -I (WisWo)| (6) 


据 此 ， 本 文 提出 改进 的 信息 瓶颈 算法 如 下 
第 一 步 ， 初 始 化 联合 概率 分 布 ; 


计算 文本 聚 类 ， 更 新 概率 分 布 ; 
计算 词 聚 类 ， 更 新 概率 分 布 ; 

t 赋 为 t+2; 
直到 收敛 为 止 。 


5.3.4 实验 结果 分 析 


本 小 节 使 用 酒店 评论 、 电 子 产 品评 论 以 及 股票 评论 三 个 领域 的 数据 对 我 们 提出 的 算法 进 
行 验证 ， 实 验 结果 如 表 13、14 所 示 。 
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长 


油 


准 方法 只 考虑 了 源 领域 与 目标 领域 词语 之 间 的 关系 , 忽略 了 其 他 两 种 关系 ， 


充分 利用 了 源 领域 与 目标 领域 的 信息 , 在 通 月 


台 已 
HE。 


表 13. 领域 相关 词语 的 分 类 结果 


上 词典 及 领域 词 | 


上 均 表现 出 较 好 的 性 能 。 可 能 的 原因 在 于 ， 基 


而 本 文 方法 由 于 


构建 任务 上 均 表 现 出 较 好 的 性 


表 14. 领域 无 关 词语 的 分 类 结果 


基准 方法 基准 方法 本 文 

PMI SM+SO LE PMI SM+SO LE 方法 

电子 一 酒店 68.4 73.5 73.2 电子 ~ 酒店 76.6 77.5 80.7 88.1 
电子 一 股票 57.8 60.6 ”63.1 电子 一 股票 69.7 68.3 71.3 73.6 
酒店 一 电子 72.1 75.4 76.3 WH S7767 eA 
酒店 一 股票 73.7 76.4 78.1 酒店 ~ 股票 85.4 88.0 86.7 84.8 
股票 一 电子 “70.6 7 73.4 股票 福星 
股票 一 酒店 68.8 71.2 73.6 股票 -酒店 67.9 71.2 81.8 84.8 
平均 精度 ”68.5 71.7 72.9 平均 精度 74.4 75.4 80.8 81.2 


6 跨 领域 情感 倾向 性 分 析 


如 上 节 所 述 , 很 多 研究 者 
F 来 保证 分 类 的 准确 


rs 


到 深 
六 


[gilly 


【。 然 而 


/区 


油 翰 


E 


还 兴 过 


> 
v 


据 
大 


< 
二 


\ 


法 。 


用 监 
性 : 训练 数据 与 涡 
， 不同 领域 中 的 已 标注 数据 量 存 在 很 大 差异 : 大 


方法 解决 倾向 性 分 析 问 题 。 但 是 ， 
| 试 数据 应 同 分 布 以 便 测试 数据 可 


情感 倾向 怕 


6.1.1 基本 原理 
如 图 2 所 示 ， 源 领域 (Old Domain) 样本 分 别 用 两 个 椭圆 来 表示 ， 其 中 灰色 的 椭圆 表示 


负面 样本 ， 


白色 的 椭 


I 


正面 两 个 类 


> 力 


面 。 不 


一 


的 文本 ,而 在 其 它 领域 ， 
需要 大 量 的 人 工 劳动 , 因 
范围 应 用 。 

本 贡 以 提高 跨 领 域 情感 倾向 怕 
6.1 监督 学 习 倾 向 性 分 析 方 法 的 领域 移植 


本 小 节 通 过 分 析 源 领域 与 目的 领域 的 特征 
策略 , 消除 特征 空间 差异 对 分 类 器 愧 


] | 的 中 心 向 量 ， 
分 线 。 从 另 一 角度 来 看 , 源 领域 中 心 线 实际 上 


圆 表示 
个 椭圆 来 表示 ， 灰 色 表 示 负 面 样本 ， 白 色 表 示 了 


用 源 领 域 中心 线 ,我 们 可 
我 们 可 以 看 到 ,对 于 目的 领域 , 源 领 
面 样本 将 会 被 错误 地 划分 为 正 


E 分 析 的 精度 为 目标 ， 从 多 个 角度 来 研究 


E 间 之 间 的 差异 与 共性 , 提 昌 


该 方法 需要 一 个 


以 与 训练 数据 共享 


FE 一 些 传 统领 域 中 有 大 量 标注 好 的 
却 很 少 有 已 标注 好 的 情感 数据 。 手工 标注 可 靠 的 情 
此 , 我 们 需要 解决 跨 领域 倾向 性 分 析 问 题 ， 


以 实现 倾向 性 分 


该 问题 。 


tH 有 效 的 领域 移植 


成 的 负面 影响 , 建立 可 跨 领 域 移植 的 倾向 性 分 析 方 


E 面 样本 ; 目的 领域 (New Domain) 样本 也 同样 分 别 用 灰白 两 


E 面 样本 。Cow 和 Cop 分 别 是 源 领域 负面 和 
源 领 域 中 心 线 (Old Middle Line) 为 连接 CoN 和 Co 的 垂直 平 


代表 了 分 B 


差 的 原因 。 解决 这 个 问题 的 
有 领域 特点 的 样本 , 如 图 所 示 


利 
.并重 


以 正确 区 分 源 领 : 


[类 另 
直观 的 方法 如 图 


也 | 


电源 领域 负面 和 正面 两 个 类 别 的 超 平 
成 负面 和 正面 两 个 类 别 的 样本 。 然 而 ， 从 图 
成 中 心 线 就 无 法 正确 划分 正 负面 了 ， 


中 心 线 以 下 的 负 


1, 这 也 解释 了 源 领 域 分 类 器 应 用 于 目的 领域 分 类 性 能 很 
3 所 示 。 首 先 ， 从 目的 领域 中 挑选 一 些 最 具 
所 训练 基本 分 类 器 ; 然后 , 计算 两 类 样本 的 中 心 Csww 和 


CsNp， 得 到 目的 领域 中 心 线 (New Middle Line)， 此 时 ， 我 们 可 观察 到 ， 目 的 领域 的 样本 基 


本 可 以 被 目的 领域 ， 


心 线 正 确 


地 分 类 了 9。 
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有 具体 的 步骤 描述 如 下 : 


(D， 基于 源 领域 中 已 标注 的 样本 训练 
使 用 该 分 类 器 标注 目的 领域 中 最 
具有 领域 特点 的 部 分 样本 ; 


(2). 


(3)， 利 用 这 些 样本 训练 出 一 个 目的 领 
域 的 分 类 器 ; 

(4)， 使 用 新 的 分 类 器 标注 目的 领域 的 
样本 。 


显然 ， 步 又 中 的 重点 和 难点 是 如 何 选 择 目的 
领域 中 最 具有 领域 特点 的 部 分 样本 进行 标 
注 ， 下 一 节 将 就 这 一 问题 进行 深入 论述 。 


6.1.2 样本 选择 方法 
(1) 相似 度 排序 方法 


我 们 使 用 中 心 向 量 分 类 方法 计算 样本 与 
正面 类 别 的 相似 度 Sp， 以 及 与 负面 类 别 的 相 
似 度 Sw， 并 认为 : 对 于 任意 一 个 样本 ，Sp 越 
大 ， 它 属于 正面 类 别 的 概率 越 大 ， Sx 越 大 ， 
它 属于 负面 类 别 的 概率 越 大 。 


在 此 基础 上 ， 我 们 提出 相似 度 排 序 


(Similarity Ranking，SR) 方 法 : 即 对 所 有 样 ”图 3 领域 移植 后 的 分 类 器 应 用 了 
本 的 Sw 进行 排序 , 并 将 其 中 Sw 值 较 大 的 nr/2 的 分 类 性 能 示意 图 


个 样本 标注 为 负面 类 别 ， 对 所 有 样本 的 Sp 


进行 排序 ， 并 将 其 


Sp 值 较 大 的 mn/2 个 样本 标注 
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性 能 示意 


挑选 的 目 


为 正面 类 别 。 


(2) 相对 相似 度 方 法 


的 领域 负 
面 样本 


挑选 的 目 
的 领域 正 
面 样本 


源 领域 
中 心 线 


的 领域 


然而 ， 如 果 网 络 评论 的 长 度 相 差 太 大 ， 这 种 方法 就 不 再 有 效 了 ， 因 为 长 度 很 长 的 评论 通 


常会 具有 较 大 的 Sw 或 Sp 。 另 外 ， 即 
较 大 差异 也 将 导致 Sw 或 Sp 的 较 大 差别 。 


时 源 领 域 和 目的 领域 的 评论 长 度 相仿 ， 其 特征 空间 的 


为 解决 这 个 问题 ， 我 们 将 计算 得 到 


间 变 化 所 造成 的 不 利 影响 ， 这 就 是 相对 相似 度 方 
( SRN ) 和 正面 相对 相似 度 (SRp ) 如 下 : 


人 

™ (Sw+Sp)/2 
Sp 

Ss = 

{or 


可 以 认为 : 对 于 任意 一 个 样本 ， Sap 越 大 ， 它 属于 ] 


” Relative Similarity Ranking, RSR 
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法 的 基 


思 想 o 


的 相似 度 进行 了 规范 化 ， 从 而 弥补 了 因 


长 度 或 特征 空 


我 们 定义 负面 相对 相似 度 


(7) 


(8) 


E 面 类 别 的 概率 越 大 ，Saw 越 大 ， 它 
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油 


长 


属于 负面 类 别 的 概率 越 大 。 据 此 ,我 们 可 以 得 到 相对 相似 度 排序 方法 : 即 对 所 有 样本 的 SRy 


进行 排序 ， 并 将 较 大 的 v2 个 样本 标注 为 负面 类 别 ; 对 所 有 样本 的 Sgp 进行 排序 ， 并 将 较 大 
的 n/2 个 样本 标注 为 正面 类 别 。 

相对 相似 度 排 序 方法 的 具体 实现 步骤 如 下 : 
算 样 本 的 相似 度 Sp 和 SN ; 


(D， 计 
(2). 
(9). 
(4). 


类 
6.1.3 实验 结 


为 了 验 订 


别 ， 其 中 ， n 表示 目 


果 分 析 


FE 本 章 提 出 的 领域 移植 方法 的 有 效 怕 


教育 评论 和 房产 评论 。 


表 15. 领域 移植 方法 的 实验 


对 SRp 和 SN 分 别 进行 排序 ; 
将 Saw 较 大 的 m2 个 样本 标注 为 负面 类 别 , 将 Sap 较 大 的 m2 个 样本 标 兴 
的 领域 中 预先 设 定 的 一 定 比例 (Ratio) 样本 的 数量 。 


采用 公式 (7) 和 公式 (8) 计算 Sap 和 Sav ; 


E， 我 们 采 月 


FE 为 正面 


4 了 三 个 领域 的 数据 ， 电 脑 评论 ， 


让 心 商 量 法 直 推 式 向 量 支持 机 ?方法 领域 移植 方法 
(基准 ) 相似 度 排序 相对 相似 度 排序 

电脑 一 教育 0.7993 0.6887 0.6966 0.8530 

电脑 一 房产 0.4540 0.8960 0.8320 0.8440 

教育 一 电脑 0.5053 0.6509 0.7751 0.8051 

教育 一 房产 0.5120 0.6100 0.8280 0.7200 

房产 一 电脑 0.7387 0.7815 0.8094 0.8993 

房产 一 教育 0.5781 0.6840 0.7109 0.8214 

平均 精度 0.5979 0.7185 0.7753 0.8238 

实验 中 采用 了 本 章 所 提出 的 两 种 领域 移植 方法 (相似 度 排序 方法 和 相对 相似 度 排序 方 
法 )。 目的 领域 的 数据 被 平均 地 分 为 未 标注 集 和 测试 集 , 未 标注 集 的 挑选 比例 (Ratio ) 为 0.4。 


从 表 15 的 结果 可 以 看 出 ， 相 对 相似 度 


精度 提高 的 幅度 如 此 显著 , 显示 了 基于 相对 相似 度 排 序 方法 的 领域 移植 方法 共有 很 好 的 鲁 棒 


性 和 有 效 性 。 


尽管 相似 度 排 序 方法 较为 简单 和 直 
度 低 大 约 5%, 但 相 比 中 心 向 量 法 却 高 出 18% 
至 优 于 相对 相似 度 排序 方法 。 

在 领域 移植 实验 中 ， 相 比 


中 ， 


教育 ”实验 外 ， 直 推 式 向 量 支 持 机 方法 的 精度 均 比 9 


排序 方法 大 大 提高 了 目 


然而 ， 除 “ 


脑 一 房产 ”实验 ， 


相似 度 排序 方法 要 低 很 多 ， 这 说 明 本 小 节 提 


6.2 基于 贝 叶 斯 学 习 的 情感 移植 模型 
本 小 节 的 研究 针对 如 何 最 大 限度 利用 源 领 域 和 目 


提出 频繁 共 现 焙 , 挑选 出 两 个 领域 中 频繁 出 现 且 有 相似 发 生 概率 的 通用 情感 特征 ; 为 获得 目 
我 们 提出 自 适应 朴素 贝 叶 斯 算法 ， 这 是 朴素 贝 叶 


标 领域 信息 ， 


Pp 心 向 


接 ， 其 性 能 也 不 错 ， 相 比 相对 相似 度 提 
。 在 “教育 一 房产 "领域 移植 实验 中 ， 划 


序 方法 平均 精 


必 向 量 法 ， 直 推 式 向 量 支 持 机 方法 的 性 能 较 好 。 除 “ 


量 法 高 很 多 ，3 


的 领域 中 分 类 器 的 性 能 ， 


性 能 其 


电脑 一 


F 均 精度 高 12% 。 
， 直 推 式 向 量 支持 机 方法 的 精度 都 比 相似 度 排 序 方法 和 相对 


的 领域 移植 方法 优 于 直 推 式 向 量 支 持 机 方法 。 


标 领 域 数据 。 为 平衡 源 领 域 数据 ， 我 们 


8 TSVM, transductive support vector machine 


33 


斯 分 类 器 上 


的 加 权 移 植 版 本 1。 
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6.2.1 算法 描述 


贝 叶 斯 算法 是 一 个 非常 有 效 的 监督 学 习 方法 , 在 情感 领域 也 表现 出 了 不 错 的 性 能 。 但 是 ， 
贝 叶 斯 算法 受到 词 空间 差异 的 影响 。 

我 们 的 基本 思想 是 寻找 领域 之 间 的 通用 情感 词 ， 并 把 通用 情感 词 作 为 源 领 域 通 向 目标 领 
域 的 一 座 桥 梁 。 在 训练 过 程 中 ， 我 们 逐步 加 大 目标 领域 的 权重 ， 使 分 类 器 模型 与 目标 领域 达 
到 最 佳 匹 配 。 可 见 ， 我 们 的 算法 既 利 用 了 源 领 域 的 部 分 可 用 信息 ， 又 充分 吸收 了 目标 领域 的 
全 部 信息 。 
记 体 来 说 ， 我 们 提出 一 个 算法 ， 首 先 用 频繁 共 现 入 挑选 出 两 个 领域 中 频繁 出 现 且 有 相似 
发 生 概 率 的 共有 特征 ， 然 后 用 自 适 应 朴素 贝 叶 斯 算法 为 目标 领域 训练 一 个 分 类 器 。 
6.2.2 频繁 共 现 凡 

要 进行 倾向 性 分 析 ， 可 以 利用 与 目标 领域 相关 的 情感 词 和 通用 情感 词 共同 为 目标 领域 训 
练 一 个 情感 分 类 器 。 然 而 目标 领域 中 很 难 获得 大 量 标注 实例 ,也 就 很 难 获得 大 量 与 目标 领域 
相关 的 情感 词 ， 因 此 我 们 只 能 使 用 通用 情感 词 作为 源 领域 与 目标 领域 的 桥梁 。 

为 获得 通用 情感 词 ， 本 文 提 出 一 个 频繁 共 现 信 算 法 。 通 用 情感 特征 符合 两 个 准则 : (1) 
两 个 领域 频繁 出 现 ; (2) 有 相似 的 出 现 概 率 。 为 满足 这 两 个 准则 ， 我 们 提出 如 下 公式 : 


P,(w):P,(w) 


fw = log( PB,(w) B(w)+p) 


(9) 


其 中 ，P, (w), PB (w) 表示 特征 w 在 源 领域 与 目标 领域 的 出 现 概率 ; 的 引入 是 为 了 防 
止 出 现 分 母 为 0 的 情况 ， 在 我 们 的 方法 中 =0.0001。 


6.2.3 自 适应 朴素 贝 叶 斯 算法 


本 小 节 我 们 将 基于 期 望 最 大 化 "的 朴素 贝 叶 斯 方法 〈 记 为 EMNB ) 用 于 跨 领域 学 习 。 原 则 
上 说 ，EMNB 要 求 标注 数据 和 未 标注 数据 服从 同 分 布 。 很 明显 我 们 的 跨 领 域 学 习 问 题 不 满足 
这 一 要 求 。 然 而 , 如 果 使 用 频繁 共 现 箭 方法 挑选 通用 特征 并 且 只 使 用 这 些 特征 初始 化 朴素 贝 
叶 斯 模型 进行 期 望 最 大 化 过 代 ， 即 可 解决 此 问题 。 另 一 个 问题 是 : 只 使 用 通用 特征 不 足以 准 
预测 目标 领域 标签 。 为 解决 此 问题 ， 我们 提出 一 个 新 的 加 权 EMNB 分 类 器 : 随 着 迭代 的 进 
行 ， 逐渐 增加 目标 域 数据 的 权重 ， 减 少 源 领 域 数据 的 权重 ， 同 时 使 用 所 有 目标 领域 特征 ， 从 
而 极 大 增强 分 类 器 对 目标 域 的 预测 能 


期 望 最 大 化 算法 迭代 两 步 (E 步 和 M 步 ) 找到 1(6|D) (详细 介绍 请 参见 [21]) 的 局 部 最 大 参 
数 : 


也 


ES 


E 步 P(cx ldi) x P(r) (Plw la jy” (10) 
Mo G4) 5 Perldi)+ 4 5 Plexld) GD) 
一 ieD° ieD" 
ele (一 [Do 4D" 
(1—A4)°(mee No )+A( NE )+1 (12) 
P(w [cx )= 六 ( x) 人 
(I-A4)Z (ne Ne) + A (Ne )+ Vv| 


a Expectation-Maximization, EM 


34 


中 文 情感 倾向 性 分 析 的 相关 丰 


S 
装 


详 见 文章 [21]。 
6.2.4 实验 结果 分 析 


为 验证 本 算法 ， 分 别 使 用 教育 评论 、 股 票 评论 、 电 脑 评论 三 个 数据 集 。 首 先 验证 频繁 共 
现 炉 算法 ， 以 下 为 股票 评论 和 电脑 评论 间 的 前 40 个 通用 特征 : 


表 16. 股票 评论 和 电脑 评论 间 的 前 40 个 通用 特征 


然后 验证 本 方法 总 体 性 能 (结果 见 表 17)。 


由 上 述 实 验 结果 可 见 ， 本 节 提 出 的 基于 贝 叶 斯 学 习 的 情感 移植 模型 可 以 挑选 出 很 好 的 通 
并 能 大 幅度 促进 跨 领域 情感 倾向 性 分 析 的 性 能 ， 是 一 个 实用 的 算法 。 


表 17. 不 同方 法 的 性 能 ” 
NB EMNB NBTC™ 本 文 方法 

MicroF1 MacroF1 MicroF1 MacroF1 MicroF1 MacroF1 MicroF1 MacroF1 
教育 一 股票 ”0.6704 0.4553 0.6628 0.4266 0.6743 0.4659 0.7669 0.7109 
教育 全 电脑 “0.5085 0.4696 0.4175 0.3118 0.6059 0.5918 0.8854 0.8814 
股票 -> 教育 0.6824 0.5867 0.6962 0.6056 0.8303 0.8080 0.9171 0.9119 
股票 全 电脑 ”0.5053 0.5025 0.5192 0.5169 0.5128 0.5103 0.7901 0.7652 
电脑 一 股票 0.6580 0.4148 0.6552 0.4036 0.6580 0.4148 0.6962 0.5942 
电脑 一 教育 “0.6114 0.4105 0.6074 0.4003 0.6114 0.4105 0.9013 0.8920 
平均 精度 0.6060 0.4732 0.5930 0.4441 0.6488 0.5336 0.8262 0.7926 


6.3 基于 图 排序 模型 的 跨 领域 倾向 性 分 析 算 法 


本 小 节 提 出 将 文本 的 情感 倾向 性 与 图 排序 算法 结合 起 来 进行 跨 领 域 倾向 性 分 析 的 算法 ， 
倾向 性 分 析 忆 9 。 
6.3.1 算法 描述 
图 排序 算法 (如 PageRank"”) 的 思想 是 : 在 一 个 图 中 ， 与 重要 结 点 紧密 相 联 的 结 点 也 和 
重要 。 该 算法 已 成 功 应 用 于 很 多 领域 。 基 于 图 排序 思想 ， 我 们 认为 如 果 一 个 文本 与 一 些 具 有 


支持 (反对 ) 态度 的 文本 紧密 联系 ， 则 它 也 很 可 能 持 支 持 ( 反 对 ) 态度 ， 这 也 是 邻 域 学 习 思 
想 。 


因此 ， 我 们 将 训练 集 和 测试 集 看 作 一 个 图 ， 里面 的 每 一 个 文本 为 图 中 的 一 个 结 点 。 给 每 
个 结 点 一 个 表示 其 情感 类 别 的 分 数 , 称 其 为 情感 分 。 本文 提出 的 算法 将 文本 情感 类 别 间 的 
关系 与 图 排序 (graph-ranking) 算法 结合 起 来 。 对 于 每 一 个 待 标注 文本 ， 算 法 通过 其 在 训练 
域 和 测试 域 的 邻 域 来 计算 它 的 情感 分 ， 并 用 一 个 统一 的 公式 进行 迭代 。 当 算法 收敛 时 ,得 到 


! MicroF1 表示 微 平均 ，MacroF1 表示 宏 平均 ， 详 细 介 绍 请 参见 [21] 
1 Naive Bayes Transfer Classifier， 朴 素 贝 叶 斯 迁移 分 类 器 
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待 标注 文本 的 最 终 情感 分 。 如 果 一 个 结 点 的 情感 分 在 -1 到 0 之 间 ， 表 示 这 个 结 点 所 代表 的 
文本 是 持 反 对 态度 ， 情 感 分 越 接 近 于 -1， 此 文本 反对 态度 越 强 ， 如 果 一 个 结 点 的 情感 分 在 0 
到 1 之 间 ， 表 示 这 个 结 点 所 代表 的 文本 是 持 支 持 态 度 ， 情 感 分 越 接 近 于 1， 此 文本 于 支持 态 
度 越 强 。 


6.3.2 基于 图 排序 模型 的 跨 领域 倾向 性 分 析 算 法 
6.3.2.1 算法 初始 化 


第 一 步 ， 本 算法 需要 为 训练 集 与 测试 集中 每 一 个 文本 的 情感 分 赋 初 始 值 ， 得 到 初始 情感 
分 向 量 80 = [ss 和 ,ss  。 对 于 测试 集中 的 文本 ， 使 用 典型 的 文本 分 类 算法 中 
的 任 一 种 分 类 器 ,用 训练 集训 练 ， 对 测试 集 分 类 得 到 一 个 伪 标 签 (此 时 的 准确 度 通常 很 低 )。 
对 于 每 一 个 文本 ， 如 果 它 分 配 到 的 标签 是 “反对 ”， 则 将 它 的 情感 分 赋 为 -1， 如 果 它 分 配 到 
的 标签 是 “支持 ” 则 将 它 的 情感 分 赋 为 1。 


第 二 步 ， 为 保证 最 终 程序 的 收敛 性 ， 将 测试 集 对 应 的 情感 分 初始 值 s 中 (i=34…,n) 归 一 
化 ， 使 得 正 的 情感 分 的 和 为 1， 负 的 情感 分 的 和 为 -1。 同 样 ， 初始 值 
s (j=n+b…,n+m) 归 一 化 。 


6.3.2.2 情感 分 计算 策略 


得 到 初始 情感 分 向 量 $" 后， 即 可 利用 训练 域 的 准确 情感 分 和 测试 域 的 伪 情 感 分 来 迭代 
计算 测试 集 的 最 终 情 感 分 。 


首先 ， 利 用 训练 集 的 准确 情感 分 来 计算 测试 集 的 情感 分 。 建 立 一 个 图 模型 ， 结 点 表示 源 
领域 标注 文本 集 Dr 和 目标 领域 未 标注 文本 集 D2 中 的 文本 ， 边 表示 文本 间 的 内 容 相似 度 。 
如 果 两 个 文本 间 内 容 相似 度 为 0， 则 图 中 两 点 间 无 边 。 如 果 不 为 0， 则 图 中 两 点 间 有 边 ， 且 
边 的 权重 即 为 此 两 内 容 之 闻 的 相似 度 。 内 容 相似 度 有 很 多 方法 求 出 , 此 处 用 余弦 相似 度 来 计 
算 。 我 们 使 用 一 个 联接 矩阵 来 表示 DV 和 DI 间 的 相似 和 矩阵。 为 保证 算法 收敛 ， 将 联接 矩阵 
归 一 化 ， 使 得 归 一 化 后 矩阵 中 每 一 行 的 和 为 1。 为 了 找 出 与 一 个 文本 最 相似 的 文本 集 ( 此 处 
设 此 文本 集 大 小 为 K )， 我 们 对 归 一 化 后 矩阵 的 每 一 行进 行 降序 排列 ， 因 此 对 于 
di e D" (i=1,…,n), 得 到 它 在 训练 域 中 的 个 邻居 。 


其 次 , 利用 测试 集 的 “ 伪 ” 情 感 分 来 计算 测试 集 的 情感 分 。 这 与 利用 训练 集 的 方法 类 似 。 
6.3.2.3 算法 迭代 过 程 


本 算法 要 同时 利用 训练 域 和 测试 域 的 信息 来 对 测试 域 的 文本 进行 标注 ， 因 此 综合 利用 训 
练 集中 邻 域 的 情感 分 和 测试 集中 领域 的 伪 情 感 分 , 得 到 迭代 计算 测试 数据 集 的 情感 分 的 公式 
如 下 所 示 : 


s) = 5 (xs he > (5 Vin x st | i=1,.…,n (13) 


jeNi 


其 中 ga+B=1,a 和 8B 分别 表示 训练 域 和 测试 域 对 最 终 情 感 分 的 页 献 大 小 。 为 保证 算法 
收敛 ,算法 每 迭代 一 次 都 需要 将 $ 归 一 化 , 使 得 正 的 情感 分 之 和 为 1 ， 负 的 情感 分 之 和 为 -1。 
迭代 计算 情感 分 $ 并 归 一 化 ， 直 到 算法 收敛 为 止 。 


6.3.3 实验 结果 分 析 
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为 验证 本 小 节 提 出 的 算法 的 性 能 , 本 节 针 对 电子 评论 、 财 经 评论 以 及 酒店 评论 进行 实验 ， 
开 将 该 算法 与 其 他 典型 算法 进行 比较 分 析 。 本 节 我 们 用 支持 向 量 机 来 初始 化 本 文 提出 的 算法 


中 的 情感 分 。 
表 18. 跨 领域 倾向 性 分 析 时 不 同 算法 性 能 比较 

LibSVMD SCL® 本 文 算法 

电子 一 财经 0.6478 0.7507 0.7304 

电子 一 酒店 0.7522 0.7750 0.7543 

财经 一 酒店 0.6957 0.7683 0.7457 

财经 一 电子 0.6696 0. 8340 0.8435 

酒店 一 财经 0.5978 0. 6571 0.7848 

酒店 一 电子 0.6413 0. 7270 0.8609 

平均 精度 0.6674 0. 7520 0.7866 


由 表 18 可 以 看 出 ， 基 于 图 排序 的 跨 领 域 倾向 性 分 析 算 法 大 幅度 地 提高 了 跨 领 域 倾向 性 
分 析 的 精度 。 其 中 第 2 列 是 LibSVM 的 精度 ， 第 4 列 为 用 LibSVM 初 始 化 后 本 算法 的 精度 ， 
对 比 可 见 ， 我 们 算法 的 精度 均 高 于 LibSYM 的 精度 ， 平 均 精 度 提高 了 11.9%。 精 度 上 如 此 大 
幅度 的 提高 表明 我 们 的 算法 对 于 跨 领 域 倾向 性 分 析 问 题 非常 有 效 。 


7 ”总 结 和 展望 


文本 情感 倾向 性 分 析 的 相关 研究 得 到 国家 自然 科学 基金 、 国 家 863 计划 等 多 方面 的 项 目 
资助 。 我 们 以 提高 文本 倾向 性 分 析 精 度 为 目标 ， 分 别 从 整 篇 文本 的 倾向 性 分 析 、 领 域 情 感 词 
典 构建 及 跨 领 域 情感 倾向 性 分 析 三 方面 提出 相应 的 解决 方法 , 从 而 通过 不 同 角度 提高 文本 倾 
向 性 分 析 的 精度 。 在 深入 开展 技术 研究 的 同时 , 我 们 已 经 陆续 开发 出 实用 性 系统 ， 帮 助 用 户 
准确 迅速 地 判断 文本 的 情感 倾向 性 。 在 下 一 步 的 工作 中 , 将 在 以 上 各 方面 进行 深入 研究 ， 进 
一 步 促 进 倾向 性 分 析 的 大 范围 应 用 。 
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